Световни новини без цензура!
FTAV Q&A: Srikanth Jagabathula
Снимка: ft.com
Financial Times | 2025-09-22 | 10:00:15

FTAV Q&A: Srikanth Jagabathula

NYU Stern School of Business Professor Srikanth Jagabathula е съавтор на-с редица първи документ, който покаже, че моделите на AI с общо предопределение могат да устоят най-трудния изпит за финансовата промишленост.

srikanth, можете ли да говорите ме през хипотезата, които търсите, с цел да тествате?

Големите езикови модели демонстрират големи благоприятни условия в необятен набор от домейни и техните благоприятни условия се усъвършенстваха с скокове и граници през последните няколко години. Така започнахме, като помислихме за опциите на LLM в профилирани домейни с високи залози. Финансите, както всеки профилиран домейн, има доста понятия, които са доста характерни за тематиката - съответна терминология, която е доста характерна за домейна.

Така че, когато вземем огромен езиков модел, който се образова в огромно многообразие от източници на данни, въпросът е дали можем да кажем, че тези модели имат опциите да работят добре отвън кутията. Това беше основният въпрос, на който искахме да отговорим. Това беше скъпа опция за основаване на пример, оценка на LLM и да се разбере какъв брой надалеч са стигнали техните благоприятни условия.

Добрият индикатор би трябвало да има избрани характерности или качества. Тя би трябвало да бъде представителна за набора от умения, който е нужен в този съответен домейн. Тя би трябвало да се смята необятно за верния индикатор от хората в общността. Така че, в случай че покажете положително показване на индикатора, хората би трябвало да имат вяра, че това в действителност се превежда в действително осъществяване. За финансовото съветване CFA е златният стандарт.

и, в резюме, какво намерихте?

Нашата основна констатация е, че най-съвременните гранични LLM са в положение да изчистят преминаващата степен на макетния тест на CFA равнище III. И това е първият път, доколкото ни е известно, това се регистрира. Предишни проучвания - извършени може би преди две години - демонстрираха, че в този миг Frontier LLMS са в положение да изчистят равнищата на CFA I и II, само че несполучливо равнище III. Това, което откриваме в този момент, е, че техните благоприятни условия са се нараснали доста.

Това беше въпрос на хранене в суровите въпроси и приемането на моделите да създават отговори, или беше по -нюансиран метод от този?

Да, има колорит на това. На този изпит са заложени два типа въпроси, въпроси с нееднократен избор и въпроси за есе. За нееднократен избор ние се храним с въпроси за макетни проби и зададем LLM да избере една от четирите варианти. Оценката на това е рационално просто, тъй като имаме и ключа за отговор.

Но има и въпроси за есе, където има винетка и някои въпроси въз основа на предоставената информация. Този отговор би трябвало да бъде оценен по подобаващ метод. Не е елементарен въпрос да ревизирате дали подхожда на точния отговор на думата за дума в ключа за отговор или не.

Това е предизвикателство, което съществува в други проучвания за относителен разбор, а един от методите, които се появиха, е това, което е известно като LLM като арбитър. Това, което нормално вършим, е да вземем доста мощен модел и да му дадем продуцираното есе, дружно с действителния отговор и всички подобаващи контексти. След това молим модела да оцени есето, като че ли е грейдер.

Това вършат множеството хора, само че ние не спряхме дотук. Може да има някои вкоренени пристрастия в класирането, тъй че ние също преминахме през процеса на наемане на сертифицирани CFA равнище III, и ги помолихме да оценят всички отговори. След това изчислихме общата степен, употребявайки и двата метода.

LLM нормално правят оценка по -високи или по -ниски от хората?

Открихме, че на същите въпроси LLM Grader като цяло е по -строг. Средно те присвояват по -малко точки от хората.

Това опонира на това, което доста от нас са претърпели при потреблението на LLMS, което е, че те постоянно наподобява ласкаят на потребителя и дават позитивна противоположна връзка, без значение от всичко. Беше ли неочакван резултат за теб?

беше изненадващо. Това, което споменахте, се следи и в някои съществуващи литература. Но това не е това, което открихме.

Друг колорит тук е, че за LLMS методът, по който ги подканите доста дефинира качеството на отговора, който получавате. Така че ние оценяваме другите типове техники за подкана и откриваме, че техниката на тласкане на веригата на обсъждане се показва най-добре.

Можете ли да обясните с изискванията на Layman с подкана за верига на обработка?

Разбира се. В постоянното тласкане нормално поставяте въпроса, давате какъвто и да е подтекст на LLM и да поискате отговор. В подкана за верига на обсъждане помолите LLM да изясни разсъжденията и да покаже своето мислене, преди да даде отговор.

В литературата е открито, че моленето на LLM да покаже своята работа и разсъждения в последна сметка усъвършенства продуктивността и дава по -добър отговор.

Разглеждайки резултатите, всички модели, които сте тествали, наподобява се оправиха сносно. Това допуска известна степен на комодитиране?

Едно от основните констатации, които имаме, е, че по въпросите с голям брой благоприятни условия за избор виждаме по-голяма степен на групиране измежду моделите. Но по въпросите на есето има доста повече разлъка сред моделите, като моделите за разсъждения се показват доста по-добре от версиите, които не са разсъждаващи, и граничните модели се показват доста по-добре от тези с отворен код.

Нашите доказателства поддържат изказванието, че осъществяването наподобява се сближава за избрани задания, само че за по -трудни задания, по -големите модели към момента наподобява се отличават от тълпата.

Има ли метод да се знае или най-малко да се открие, без значение дали съответен LLM е бил подготвен на този съответен набор от насмешки?

огромен въпрос. Една от аргументите да изберем изпитите на CFA е да заобикаляме по този начин нареченото приключване на данни, което значи, когато тестовата задача към този момент се следи от модела в процеса на образование. Човек несъмнено не може да го изключи. Но защото доста от тези въпроси са склонни да стоят зад платежната стена, LLM може да не са ги виждали по време на процеса на образование.

Голяма част от предходните ви проучвания е на веригите за търговия на дребно и доставки и вие идвате да финансирате като външен човек. Смятате ли, че функциите на финансовите услуги са изключително уязвими от умна автоматизация?

Виждам, че тези модели допълват съществуващите гении. Проведохме доста по-малък мащаб за това по какъв начин LLM ще взаимодейства с хората в предлагането на финансови препоръки. Искам да внимавам да обобщим прекалено много от него, само че нормално това, което установихме, беше, че LLM бяха доста положителни в даването на точни отговори, само че също по този начин им липсваше доста подтекст, който не беше категорично посочен за тях, и имаше някои проблеми във връзка с доверието от крайния консуматор и по какъв начин възприемат тези LLM.

Така че, защото те стоят сега, не е ясно. В този миг нямаме доказателства, с цел да кажем дефинитивно какво могат да автоматизират, само че има доста доказателства, които допускат, че те могат доста да добавят съществуващата работна мощ.

Голямо терзание, съгласно мен, не е единствено качеството на продукцията. Това е, че генерирането на препоръки от LLM освобождава компанията на човешката отчетност.

И по този начин, аз съм научен шеф на бакалавърска стратегия тук в NYU Stern и в тази роля мисля за това какво влияние ще има върху бъдещото наемане, по-специално работни места на равнището, тъй като това е, за което приготвяме нашите студенти. Това, което мога да кажа, е, че към момента наподобява, че има висока степен на неустановеност във връзка с посоката.

Вашите студенти ли са оптимистични или песимистични за това къде AI приема обществото?

Ако мога да обобщя, това, което виждам, е малко микс. Определено има известна степен на оптимизъм, тъй като потреблението на тези технологии може да бъде извънредно упълномощаващо. И внезапно се усещат, че могат да вършат неща, които евентуално не са могли преди. Кодирането на трептения, да вземем за пример, това е нещо, което в действителност е овластяващо. И повече от скептицизма, бих споделил, че има малко безпокойствие, основно идва от несигурността по какъв начин наподобяват нещата напред.

оставяте ли студентите си да употребяват Chatgpt, с цел да напишат своите задания?

Като университет, в този миг няма политика, която да им попречи да употребяват някакви AI принадлежности. Индивидуалните качества подхващат разнообразни подходи.

По -нататъшно четене:
- Добри вести: Chatgpt евентуално ще се провали с CFA изпит (FTAV, март 2023 г.)

Източник: ft.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!